画像生成AIキャッチアップ 2025
目標
AIの実用上の限界を知る
技術が予想より下ブレするのはいいが、予想より上ブレするとまずい。それを前提にした制作を考える必要があるから。
現時点でのベストが、どのように制作に取り入れられるのかわかる
漫画の背景をどこまで任せられるのかを知りたい
ゴール
成果物
10月までにCC集を作る
冬までに1本40ページ以上の漫画を作る
手段
調査
生成AIの売れている作品を見て何ができるのかの気づきのリストを作る
キャラクターの一貫性に関してはもはや当たり前になったようだ
典型的な制作物のワークフローを追走して確認する
AIがアンロックするもの
量産=量産前提でないとできないもののアンロックが明らかに一つの強みだが
こっちはあまり言及する人がいないように感じる。やってみないとわからないからだと思う
GPT-5.icon実行のための「観察・試行・制作・振り返り」をタスク化する
調査フェーズ
売れているAI生成作品を「5〜10本」ピックアップし、特徴・技術・弱点を表形式でまとめる
技術的観点ごとに調査 (例: キャラ一貫性・背景生成・構図多様性・テキスト埋め込み・ポストプロセス)
生成AIごとの強みを比較する (NovelAI, hailuo, flux, SD系モデルなど)
モデルの強みと作品の強みは別であることに注意。切れ味の良い包丁で不味い刺身を作ることはできる基素.icon
CG集と漫画で別としたい基素.icon
主要モデル調査
⬆️の作品のクレジットを参照する
試行フェーズ
小規模な「テストプロジェクト」を複数走らせる
生成失敗例を「何が原因でうまくいかなかったか」メモ化 (モデルの限界 vs 自分のプロンプト制御の限界を切り分ける)
プロンプトやリファレンス管理のテンプレートを自作して運用する
テストプロジェクト
キャラ一貫性テスト
NovelAI Character Reference を使用。1キャラで 5〜10枚ポーズや表情違いを生成・評価
NovelAI: アニメ調キャラに強く、リファレンス指定との親和性が高い
flux: 画風はリアル寄りだが、プロンプトでの制御性が違う SDXL + LoRA: 学習済みLoRAを使うと特定キャラや服装での再現度が高いが、汎用性は落ちる
一枚絵アニメテスト
「コマ数/滑らかさ/キャラ保持」を観察
SNSに試し投稿して反応を見る
ローカル生成比較
現在の標準的制作環境を調査・実行
有料サービス(NovelAI・Midjourney)との画質比較
モデルで生成して感覚を掴む
以下のモデルを試す
大型DiTを1つ試す
背景が出せるか
かなり早くサクサクできるので試行錯誤には良さそう
リファレンスとプロンプトを用意するのがしんどい。リファレンスだけで書いてほしい
リファレンスを一度GPT-5級のサービスでプロンプトにしてもらってそれをコピペすると大幅に工数が減らせる
漫画は難しそう
ローカルでもできるのか?試す
有償サービスの生成実験
API
Blenderでdepth画像を吐き出して画像生成を試す
109が出せるか?
https://youtu.be/o7N6Fbtg84E
ダイナミックさ不可能テスト
全力で生成して、ハンターハンターと同じ画面を作れるか?
写真でこれができるなら、VRChatで写真を撮って漫画にするというようなワークフローもありうる(重いワークフロー)
https://gyazo.com/e58371b5cd0c6f1f05d0723caa804e76
画面の一部を人間が描いた時に全体クオリティを維持できるのか?
制作フェーズ
10月までのCG集に向けて「テーマ」を先に固定 (例: キャラ〇〇、季節感△△)
「テーマ」決定のために小スケッチや参考画像を3〜5枚だけ作り、方向性を早めにロックすると迷走しにくい
漫画用には「ネーム1ページ」を紙やデジタルで作り、それをAIで置き換える実験をやる
ワークフロー確立だけど、こういうやり方でいいのか謎だな...基素.icon
GPT-5.icon現状(2025年夏時点)、AIが「人間が決めたネーム通りに正しくコマ割りして描く」ことは基本的にできない。hailuoなど「漫画ページ生成」を謳うモデルはあるが、精度はまだ低く、吹き出しやコマ枠が崩れることが多い。 制作スケジュールを週単位に分割 (例: 週1キャラテスト、週2仕上げ)
捨てカット前提で「30枚生成 → 5枚採用」をルール化
塩梅は後から調整基素.icon
補助タスク
ローカル環境構築 (Stable Diffusion系を一度触る、落差を知るため)
モデルとワークフローが浦島太郎基素.icon
フィードバックループ確立 (SNSやDiscordにアップして他者の反応を得る)
実験を公開してもいいが、無駄に摩擦を生みたくないので棲み分けがしたい基素.icon
歴史キャッチアップ
基素.icon最後に触ったのいつだっけ
Claude Sonnet 4.iconあなたが最後にStable Diffusionのモデルを触ったのは2022年頃と推定されます。
主な手がかり:
「自作PC build(2022)」でAutomatic1111版Stable Diffusion web UIのdockerについて言及
「stable-diffusion-webui-dockerを試す」「stable-diffusion-webui-dockerをWindowsで使う」などの実際の環境構築記録が2022年頃
ControlNet、LoRA、DreamBooth、Textual Inversionなど2022年後期から2023年初期の技術について多数の記録
NovelAI Diffusionのリーク騒動(2022年10月頃)についても詳しく記録
2023年以降の新しい技術(Stable Diffusion 3、Flux、SD3.5など)についてもページはありますが、これらは情報収集レベルで、実際に触った形跡は見当たりません。
基素.iconここから現時点までの出来事をざっくり知りたいのでDeep Researchを使う
この2年半は、画像生成AIが技術的な成熟期を迎え、クリエイティブな表現のための真のパートナーへと変貌を遂げた時代であった。お前が最後に触れた技術は、もはや歴史の1ページとなっている
基素.iconこのレポートによるとどんな技術によってどんな表現ができるようになった?
モデルはU-NetベースからDiTベースになった(タイポグラフィ・複雑なシーンの理解)。具体的にはStable Diffusin 3.5 / flux.1
3Dを使ってシーンを決めてレンダリングに画像生成AIを使う
Gemini 2.5 Pro.icon
レポートによれば、この2年半の技術進化は、クリエイターがAIをより深く、意図通りに制御するためのブレークスルーをもたらしました。主要な技術と、それによって可能になった表現を以下にまとめます。
1. 基盤アーキテクチャの進化:より賢くなった「翻訳家」
技術:拡散トランスフォーマー (DiT) とマルチモーダル拡散トランスフォーマー (MMDiT) できるようになった表現: 従来のモデルが苦手としていた、複雑な文章の深い理解が可能になりました 。
例えば、「馬に乗る宇宙飛行士の写真」といった単純な指示だけでなく、「シロップの川が流れるワッフルでできたカバ」のような、複数の要素が複雑に関係し合うシーンを正確に描画できます 。
さらに、画像内に正確な文字(タイポグラフィ)を描き出す能力が飛躍的に向上し、ポスターやロゴデザインへの応用が現実的になりました 。これは、AIが単語を画像に「置き換える」のではなく、文章全体の構造と意味を理解してビジュアルに「翻訳する」能力を獲得したことを意味します。
2. キャラクターの一貫性維持:物語のための「魂」の注入
できるようになった表現: 漫画やアニメ、絵本のように、同じキャラクターを異なるポーズ、表情、シーンで一貫して登場させることが、学習の手間をかけずに可能になりました 。
IP-Adapterは参照画像からキャラクターの特徴を瞬時に適用し
FLUX.1 Kontextは対話形式で「このキャラクターの表情を笑顔にして」といった編集を可能にします 。
これにより、クリエイターは一貫したビジュアルを持つ物語を紡ぐことができるようになりました。
3. ポーズと構図の精密制御:クリエイターは「監督」へ
技術:3Dソフトウェアとの連携 (3D-2Dパイプライン)、FLUX.1 Tools (ControlNet後継)、高度な領域プロンプティング できるようになった表現: Blenderなどの3Dソフトで決めたカメラアングルやキャラクターの複雑なポーズを、そのまま2Dイラストに反映させることが可能です 。
領域プロンプティングを使えば、キャンバスを分割し、「左には赤い服の男性、右には青いドレスの女性」といったように、画面内の要素をピクセル単位で正確に配置できます 。 これにより、意図した通りの構図を持つ、よりダイナミックで物語性豊かな一枚絵の作成が容易になりました。
4. リアルタイム生成:思考と同期する「魔法の筆」
できるようになった表現: 数分かかっていた画像生成が1秒未満に短縮され、プロンプトを入力するそばから画像がリアルタイムで変化していく、インタラクティブな創作体験が実現しました 。これにより、アイデアを試行錯誤するスピードが劇的に向上し、より直感的で流動的なクリエイティブワークフローが可能になっています。
5. テキストからの動画生成:個人が作る「映画」
技術:高品質なテキストからのビデオ生成モデル (OpenAI Sora, Klingなど)
できるようになった表現: テキストだけで高品質な映像クリップを生成できるようになったことで、個人が脚本から短編映画やアニメーションを制作する「AIシネマ」という新たな表現分野が生まれました
基素.iconレポートを読んでタスクリストを更新した。利用に関して薄かったので更なる調査
基素.iconレポートを読み、漫画を取り巻く環境は2022年からぜんっぜん進化していないことがわかった